Telegram Group & Telegram Channel
Как использовать категориальные признаки в k-Means

Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».

🛠 Что можно сделать

📍 One-hot encoding — преобразуем каждую категорию в бинарный вектор. Это позволяет применить *k-Means*, но увеличивает размерность и может искажать расстояния.
📍 Label encoding — простой способ, но порядок присвоенных чисел может ввести модель в заблуждение (например, «cat» = 0, «dog» = 1, «elephant» = 2).
📍 Оба метода не гарантируют адекватную интерпретацию расстояний между категориями.

🔄 Альтернатива

Вместо k-Means для категориальных или смешанных данных лучше использовать:
📍 k-Modes — аналог k-Means, но для чисто категориальных признаков (использует моду вместо среднего).
📍 k-Prototypes — работает с числовыми и категориальными данными одновременно.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/965
Create:
Last Update:

Как использовать категориальные признаки в k-Means

Алгоритм k-Means плохо работает с категориальными признаками, потому что понятие среднего значения неприменимо к строковым значениям вроде «красный», «синий» или «зелёный».

🛠 Что можно сделать

📍 One-hot encoding — преобразуем каждую категорию в бинарный вектор. Это позволяет применить *k-Means*, но увеличивает размерность и может искажать расстояния.
📍 Label encoding — простой способ, но порядок присвоенных чисел может ввести модель в заблуждение (например, «cat» = 0, «dog» = 1, «elephant» = 2).
📍 Оба метода не гарантируют адекватную интерпретацию расстояний между категориями.

🔄 Альтернатива

Вместо k-Means для категориальных или смешанных данных лучше использовать:
📍 k-Modes — аналог k-Means, но для чисто категориальных признаков (использует моду вместо среднего).
📍 k-Prototypes — работает с числовыми и категориальными данными одновременно.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/965

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

How Does Telegram Make Money?

Telegram is a free app and runs on donations. According to a blog on the telegram: We believe in fast and secure messaging that is also 100% free. Pavel Durov, who shares our vision, supplied Telegram with a generous donation, so we have quite enough money for the time being. If Telegram runs out, we will introduce non-essential paid options to support the infrastructure and finance developer salaries. But making profits will never be an end-goal for Telegram.

How Does Bitcoin Work?

Bitcoin is built on a distributed digital record called a blockchain. As the name implies, blockchain is a linked body of data, made up of units called blocks that contain information about each and every transaction, including date and time, total value, buyer and seller, and a unique identifying code for each exchange. Entries are strung together in chronological order, creating a digital chain of blocks. “Once a block is added to the blockchain, it becomes accessible to anyone who wishes to view it, acting as a public ledger of cryptocurrency transactions,” says Stacey Harris, consultant for Pelicoin, a network of cryptocurrency ATMs. Blockchain is decentralized, which means it’s not controlled by any one organization. “It’s like a Google Doc that anyone can work on,” says Buchi Okoro, CEO and co-founder of African cryptocurrency exchange Quidax. “Nobody owns it, but anyone who has a link can contribute to it. And as different people update it, your copy also gets updated.”

Библиотека собеса по Data Science | вопросы с собеседований from no


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA